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摘 要 近年 来 ， 人 工 智能 技术 的 飞速 发 展 及 应 用 催生 了 “智能 化 心理 健康 


100044) 


测评 ”这 一 领域 。 


智能 化 心理 健康 测评 能 够 弥补 传统 方法 的 不 足 ， 降 低 漏诊 率 并 提高 诊断 效率 ， 这 对 于 心理 
健康 问题 的 普查 及 预警 具有 重大 意义 。 目 前 ， 智 能 化 心理 健康 测评 处 于 初步 发 展 阶段 ， 研 
完 者 基于 在 线 行为 数据 、 便 携 式 设备 数据 等 开展 主要 以 数据 驱动 为 导向 的 探索 研究 ， 旨 在 


实现 更 高 的 预测 准确 率 ， 但 是 测评 结果 的 可 解释 性 等 指标 尚 


够 理想 。 未 来 的 智能 化 心理 健康 测评 需要 强调 心理 学 领域 知识 和 经 验 的 深度 介入 ， 提 高 测 


评 的 针对 性 和 精细 化 程度 ， 加 强 信 效 度 检 验 ， 这 对 于 智能 化 心理 健康 测评 了 


[有 具 的 进一步 发 


展 和 应 用 至 关 重 要 。 
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了 


随 着 社会 的 进步 和 发 展 加 快 了 人 们 的 生活 节奏 ， 也 加 剧 了 社会 竞争 ， 这 些 变化 必然 会 
对 个 体 的 心理 健康 产生 重大 影响 。 在 这 一 时 代 背 景 下 ， 如 何 对 心理 健康 进行 高 效 且 精准 的 
测评 尤为 重要 ， 这 是 了 解 民众 心理 健康 状况 以 及 提供 有 效 干预 的 前 提 。 
近年 来 ， 机 器 学 习 、 深 度 学 习 等 人 工 智 能 和 大 数据 挖掘 技术 逐渐 应 用 于 心理 健康 领域 ， 
带 来 了 心理 健康 测评 方法 的 革新 ， 也 催生 了 “智能 化 心理 健康 测评 ”这 一 新 兴 领 域 。 人 工 
智能 是 研究 并 开发 用 于 模拟 和 延伸 人 类 智能 的 方法 、 技 术 及 应 用 系统 的 一 门 科 学 。 机 器 学 
智能 最 重要 的 技术 手段 ， 旨 在 探索 、 建 模 大 量变 量 之 间 的 复杂 高 维 交互 作用 
(Bzdok & Meyer-Lindenberg, 2018; Kodratoff 2014)。 通 过 应 用 人 工 智 能 技术 进行 数据 的 获取 
一 和 分 析 ， 以 及 采用 机 器 学 习 方 法 表征 和 建 模特 征 与 心理 状态 之 间 的 关系 ， 智 能 化 心理 健康 
rs 测评 能 够 辅助 并 一 定 程度 上 蔡 代 人 工 测评 。 与 此 同时 ， 智 能 化 心理 健康 测评 也 大 大 拓宽 了 
传统 心理 健康 测评 手段 (如 量 表 法 ， 访 谈 法 等 ) 的 测评 形式 和 数据 分 析 方法 ， 使 得 研究 者 能 
够 基于 更 加 仿真 的 任务 情境 ， 获 取 多 模 态 的 数据 进行 协同 分 析 和 建 模 ， 实 现 更 加 高 效 、 精 
准 的 测评 。 因 此 ， 本 文 将 针对 智能 化 心理 健康 测评 这 一 领域 的 研究 进展 、 目 前 存在 的 问题 
以 及 未 来 发 展 方向 进行 概述 和 讨论 。 
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2 智能 化 心理 健康 测评 的 主要 研究 方向 


目前 ， 研 究 者 主要 基于 社交 媒体 数据 、 智 能 设备 数据 以 及 电子 游戏 数据 开展 智能 化 心 
= 理 健 康 测 评 ， 从 大 量 在 线 行为 数据 中 挖掘 特征 或 模式 ， 进 而 实现 对 心理 健康 问题 的 预测 。 
Latynov 和 Shepeleva(2020) 提 出 数字 心理 测量 学 (digital psychometrics) 这 一 研究 方向 ， 将 其 
界定 为 根据 个 体 的 数字 痕迹 来 预测 各 种 心理 特征 (如 人 格 特质 ， 情 绪 状态 ， 价 值 观 ， 动 机 
等 )， 基 于 在 线 行为 数据 的 心理 健康 测评 可 以 视 为 该 领域 的 一 类 具体 任务 。 

除 在 线 行 为 数据 外 ， 研 究 者 也 通过 可 穿戴 设备 来 采集 与 心理 健康 相关 的 数据 ， 主 要 包 
舌 脑 电 数据 、 眼 动 数据 以 及 运动 数据 等 ， 通 常 在 实验 室 中 通过 专业 设备 来 采集 。 近 年 来 ， 
究 者 尝试 基于 便携 式 可 穿戴 设备 采集 日 常生 活 中 的 数据 ， 从 中 提取 特征 进行 分 析 和 预测 。 

不 同 来 源 的 数据 具有 不 同 的 特点 ， 数 据 挖掘 、 分 析 和 建 模 的 方法 也 存在 差异 。 下 面 分 
别 对 基于 社交 媒体 数据 、 智 能 设备 数据 、 电 子 游 戏 数据 以 及 可 穿戴 设备 数据 开展 的 智能 化 
心理 健康 测评 研究 进行 概述 ， 四 种 数据 的 简要 比较 见 表 1。 
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2.1 基于 社交 媒体 数据 的 心理 健康 测评 


社交 媒体 数据 在 心理 测评 中 的 应 用 非常 广泛 (Kern et al., 2016; Kosinski et al., 2016; Park 
etal., 2015)。 社 交 媒 体 上 的 文本 主题 开放 性 高 、 内 容 丰 富 且 时 间 跨 度 长 ， 承 载 了 个 体 的 思 
想 和 情绪 情感 ， 对 于 评估 个 体 心理 有 具有 极 高 的 价值 (Kern et al., 2016; Mandryk & Birk, 
2019)。 研 究 者 收集 用 户 在 线 发 布 的 文本 内 容 ， 探 索 有 关心 理 特质 以 及 心理 健康 状况 的 表现 ， 
采用 机 器 学 习 和 自然 语言 处 理 技 术 构 建 预 测 模型 。 国 外 研究 者 主要 基于 脸 书 、 推 特等 平台 
上 用 户 发 布 的 内 容 来 预测 其 心理 特质 (Aung & Myint, 2019; Marouf et al., 2019) 以 及 心理 健康 
问题 (Eichstaedt et al., 2018)。 国 内 研究 者 多 依托 微 博 、 知 乎 等 平台 进行 相关 研究 ， 例 如 ， 分 
析 不 同 生活 满意 度 水 平 的 用 户 的 语言 差异 ( 汪 静 莹 等 , 2016) 以 及 检测 用 户 的 抑郁 、 焦 虑 以 
及 自杀 倾向 (Cheng et al., 2017)。 此 外 ， 研 究 者 也 尝试 利用 学 生 在 线 学 习 平台 上 的 写作 及 评 
论 数据 ， 构 建 了 针对 小 学 生 心 理 特质 的 预测 模型 ( 骆 方 等 , 2020; 张 蛤 等 , 2020)。 


随 着 人 工 智能 领域 相关 技术 的 发 展 ， 具 有 更 高 性 能 的 深度 学 习 模型 不 断 涌现 ， 提 高 
智能 化 测评 的 准确 率 (LeCun et al., 2015)。 例 如 ，Ive 等 人 (2018) 首 次 在 研究 中 采用 循环 神经 
网 络 (Recurrent Neural Network, RNN) 来 预测 社交 媒体 上 的 帖子 中 所 涉及 的 心理 健康 问题 ， 
HF RNN 能 够 更 好 地 建 模 具有 序列 特征 的 文本 数据 ， 其 预测 结果 明显 优 于 以 往常 用 的 卷 积 
saal 神经 网 络 (Convolutional Neural Networks, CNN)。 然 而 ， 模 型 深度 和 复杂 度 的 上 升 往往 导致 
= 模型 可 解释 性 的 下 降 ， 为 解决 这 一 问题 ， 研 究 者 尝试 在 模型 中 纳入 注意 力 (attentiom) 机 和 
N 自动 识别 对 于 预测 特定 心理 健康 问题 最 重要 的 特征 ， 帮 助 研究 者 更 好 地 理解 和 解释 模型 结 
二 果 (Lynn et al., 2020)。 可 以 看 出 ， 基 于 社交 媒体 数据 开展 的 心理 健康 测评 研究 中 ， 研 究 者 始 
e 终 追 求 的 目标 是 努力 提高 模型 的 预测 准确 率 ， 但 是 关于 模型 的 可 解释 性 的 问题 已 经 逐渐 受 
一 到 关注 。 
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2.2 基于 智能 设备 数据 的 心理 健康 测评 


智能 手机 等 便携 式 电子 设备 中 记录 着 个 体 的 日 常 行为 数据 ， 包 括 应 用 软件 的 使 用 、 沟 
通 ( 打 电 话 、 发 短信 )、 听 音乐 、 拍 照 、 位 置 移 动 (基于 GPS)、 连 接 (蓝牙 、WIFD 等 ， 这 些 行 
为 数据 为 预测 个 体 心 理 特 质 提 供 了 有 效 的 信息 。 德 国 慕尼黑 大 学 的 研究 团队 收集 了 624 

被 试 连续 30 天 的 智能 手机 日 志 数 据 ， 据 此 构建 大 五 人 格 的 预测 模型 出 了 六 类 对 
人 格 特质 具有 明显 预测 作用 的 特征 ， 包 括 : 1) 沟 通 及 社交 ，2) 音 乐 的 消费 ，3) 应 用 的 使 用 ， 
4) 位 置 的 移动 ，5) 手 机 的 总 体 活 动 ，6) 日 间 和 夜间 活动 。 该 模型 的 预测 结果 与 效 标的 相关 为 
0.4， 达 到 了 以 往 基于 社交 媒体 数据 进行 人 格 预测 的 准确 率 ， 显 示 出 基于 智能 手机 日 志 数据 
进行 心理 测评 的 可 行 性 (Stachl et al., 2020)。 


(一 
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随 着 智能 手机 等 移动 设备 的 广泛 应 用 ， 音 视频 数据 的 采集 和 分 析 也 变 得 更 加 便利 ， 研 
究 者 从 中 提取 动作 、 语 音 及 表情 等 特征 ， 实 现 心 理 健康 的 即时 、 自 动 评估 。 音 频 特 征 与 心 
理 健康 状态 具有 相关 性 (Cannizzaro, 2004; Mundt, 2012)， 研 究 者 尝试 基于 语音 数据 筛 查 心理 
健康 问题 。 例 如 ， 胡 斌 等 人 (2018) 收 集 了 抑郁 症 患者 以 及 正常 人 群 在 正 性 、 中 性 以 及 负 性 
三 种 情绪 状态 ， 以 及 在 语言 问答 、 文 本 朗读 和 图 片 描述 三 种 任务 类 型 下 的 语音 数据 ， 构 建 
了 抑郁 症 的 语音 识别 模型 ， 模 型 准确 率 达 到 82.9%。Afshan 等 人 (2018) 对 抑郁 症 患 者 、 焦 处 
症 患者 以 及 正常 人 群 的 访谈 录音 进行 分 析 ， 尝 试 对 心理 健康 问题 进行 识别 ， 模 型 准确 率 达 
到 95%。 视 频 中 往往 记录 了 个 体 的 面部 表情 和 身体 动作 ， 研 究 者 试图 通过 面部 动作 编码 系 
统 来 识别 面部 肌肉 的 震颤 和 变化 ， 捕 捉 个 体 的 微 表情 来 识别 心理 健康 问题 (de Meto et al., 
2020; Wang et al., 2018)。Zhao 等 人 (2019) 从 视频 中 提取 步 态 特征 来 构建 预测 模型 ， 对 情绪 
的 预测 准确 率 达 到 80% 以 上 ， 对 焦虑 和 抑郁 的 预测 结果 与 效 标的 相关 分 别 为 0.74 和 0.64。 
日 此 可 见 ， 随 着 人 工 智 能 技术 的 发 展 ， 心 理 健康 测评 将 逐渐 融入 人 们 的 生活 中 ， 实 现 更 加 
便利 、 高 效 的 评估 。 
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2. 3 基于 电子 游戏 数据 的 心理 健康 测评 


近年 来 ， 随 着 电子 游戏 的 普及 ， 游 戏 数据 也 受到 了 研究 者 的 关注 。 游 戏 数据 是 指 玩家 
在 游戏 过 程 中 的 日 志 数据 ， 包 含 了 个 体 在 虚拟 游戏 环境 中 的 丰富 的 行为 表现 ， 研 究 者 可 以 
据 此 评估 个 体 的 能 力 和 心理 特质 ， 这 类 测评 方法 被 称 为 “基于 游戏 的 测评 ”(Game-based 
assessment, GBA) (Heinzen et al., 2015)。 基 于 游戏 的 测评 提供 了 仿真 的 交互 场景 ， 降 低 了 个 
体 的 测验 焦虑 ， 同 时 规避 了 传统 心理 测评 存在 的 社会 称许 性 反应 等 问题 ， 从 而 获取 更 为 真 
实 的 行为 表现 ， (RRI, EF, 2021). 
目前 ， 基 于 游戏 的 测评 主要 用 于 评估 个 体 的 能 力 ， 例 如 问题 解决 能 力 (Shute et al., 
© 2016)、 推 理 能 力 ( 孙 先 等 ，2018)、 论 证 推理 能 力 (Song & Sparks, 2019) 以 及 社会 情绪 能 力 
(DeRosier & Thomas, 2018) 等 ， 在 认 知 障碍 诊断 中 也 有 较 多 应 用 (Flynn et al., 2019; Hautala et 
al., 2020; Manera et al., 2015; Song et al., 2020)。 此 外 ， 研 究 者 也 尝试 基于 游戏 测评 某 些 积极 
人 格 ， 比 如 依从 性 (van Nimwegen et al., 2011) 和 坚持 性 (DiCerbo, 2014; Ventura & Shute, 
2013) 等 。 目 前 针对 心理 健康 的 游戏 化 测评 还 非常 少 ， 但 相关 研究 正 不 断 涌现 ， 例 如 
Johannes Dechant 等 人 (2021) 尝试 基于 游戏 测量 个 体 的 社交 焦虑 水 平 。 
已 有 基于 游戏 的 测评 多 数 采 用 商业 化 游戏 数据 。 基 于 商业 化 游戏 数据 提取 的 行为 、 认 
知 和 情感 等 特征 可 以 作为 预测 个 体 心 理 健康 的 依据 (Mandryk & Birk, 2019)。 然 而 ， 商 业 化 
游戏 中 的 娱乐 性 因素 繁多 ， 难 以 准确 地 诱发 并 捕捉 特定 心理 健康 问题 的 行为 表现 ， 因 而 测 
评 结果 的 可 靠 性 和 精细 度 不 足 。 为 实现 真正 有 效 的 心理 健康 测评 ， 研 究 者 需要 针对 研究 目 


Ni 


的 独立 设计 游戏 或 对 商业 化 游戏 进行 改编 ， 设 置 能 够 诱发 特定 行为 的 场景 和 任务 ， 并 对 相 


关 的 行为 特征 进行 埋 点 记录 。 


2. 4 基于 可 穿戴 设备 数据 的 心理 健康 测评 


心理 健康 问题 往往 伴随 着 明显 的 生 


里 反应 ， 研 究 者 通过 可 穿戴 设备 采集 脑 电 、 有 眼 动 、 


心率 、 皮 肤 慢 度 等 生理 指标 进行 心理 健康 监测 。 脑 电 记 录 了 大 脑 皮 层 的 电 活动 ， 反 映 了 个 


体 对 特定 刺激 的 情绪 变化 (Alhagry et al., 2017; Song et al.,2018)， 因 此 有 研究 者 使 


j 脑 电 数 


据 来 识别 与 情绪 相关 的 心理 健康 问题 。 例 如 ，Deng 等 人 (2019) 采 集 高 情绪 障 得 者 和 低 情绪 


障碍 者 在 观看 不 同情 感 类 型 的 影片 过 程 中 


的 脑 电 数据 ， 采 用 支持 握 


准确 率 达到 95.20%。Ay 等 人 (2019) 基 于 脑 ! 


Ani 


量 机 构建 预测 模型 ， 其 
数据 构建 长 短 时 记忆 网 络 模型 (Long Short- 


Term Memory, LSTM) 识 别 抑郁 症 患 者 ， 模 型 在 左右 半球 的 准确 率 分 别 为 97.66% 和 
99.12%。 此 外 ， 研 究 者 也 基于 脑 电 数据 分 析 个 体 的 注意 及 认 知 模式 ， 进 而 检测 与 注意 相关 


的 心理 障碍 。 例 如 ，Dubreuil-Vall 等 人 (2020) 采 用 Flanker 任务 | 
的 事件 相关 电位 ， 构 建 卷 积 神经 网 络 作为 预测 模型 ， 模 型 准确 率 为 88%1 
Vall et al., 2020)。 除 此 之 外 ， 脑 电 数 据 也 被 月 


k ADHD 患者 和 正常 被 试 
1.12 % (Dubreuil- 
来 诊断 创伤 后 应 激 障 碍 (Laxminarayan et al., 


2020; Meyer et al., 2018) 和 自 闭 症 (Bosl et al., 2018; Brihadiswaran et al., 2019) 等 诸多 心理 健康 


问题 。 


通过 眼 动 追踪 技术 获得 的 眼 动 数据 也 是 智能 化 心理 健康 测评 的 


采集 被 试 在 特定 任务 中 或 刺激 下 的 眼 动 数据 ， 采 


一 类 重要 数据 。 研 究 者 


机 器 学 习 方 法 提取 凝视 时 间 、 凝 视 移动 


和 瞳孔 大 小 等 特征 并 构建 预测 模型 。 例 如 ，De Silva 等 人 (2019) 采 集 被 试 在 不 同事 件 下 的 眼 


动 数据 ， 采 用 决策 树 算 法 构建 预测 模型 并 实现 了 84% 


数据 与 眼 动 数据 来 识别 焦虑 症 患 者 ， 采 


准确 率 。 清 华 大 学 的 马 惠 敏 等 人 基于 眼 动 数据 提取 被 试 的 注意 偏向 
状态 ， 预 测 模型 的 准确 率 、 灵 人 敏 性 和 特异 性 均 在 0.8 以 上 (Pan et al., 


的 准确 率 ; Zhang 等 人 (2020) 结 合 脑 电 
] 文 持 问 量 机 算法 构建 预测 模型 并 实现 了 82.70% 的 


特征 来 预测 抑郁 及 焦虑 


2019)。 


心理 健康 与 情绪 和 压力 状态 具有 紧密 联系 ， 皮 肤 温 度 以 及 心率 等 生理 指标 反应 了 个 体 
的 情绪 和 压力 状态 ， 因 而 具有 预测 个 体 心 理 健康 水 平 的 潜力 。 例 如 ， 采 用 红外 热 成 像 技术 
测量 皮肤 温度 来 检测 情绪 (Cardone & Merla, 2017)， 通 过 心率 和 心率 变异 性 等 指标 检测 压力 


状态 (Castaldo et al., 2019; Pereira et al., 2017; Pluntke et al., 2019) 和 焦 


2020; Wen et al., 2018). Rif, mAAR 


E 理 指标 的 因素 众多 ， 生 到 


心理 健康 因素 造成 ， 研 究 者 需要 结合 更 多 监测 指标 对 个 体 的 心理 健 


虑 水 平 (hmig et al., 


E 指 标的 变化 3 
康 状况 进行 综合 判断 。 
近年 来 可 穿戴 设备 不 断 升级 ，EEG 耳机 等 小 巧 的 便携 式 可 穿戴 设备 不 断 涌现 ， 为 个 体 
心理 健康 状况 的 持续 、 无 侵扰 监测 提供 了 可 能 (Lo et al., 2017; Richer et al., 2018)。 除 了 利用 


不 完全 由 


现 有 的 可 穿戴 设备 外 ， 研 究 者 也 尝试 针对 特定 研究 问题 和 目标 群体 开发 专门 的 可 穿戴 设备 ， 


202108.00005v1 
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例如 ， 中 国 科学 院 计算 所 的 陈 益 强 等 人 与 安定 医院 合作 开发 了 针对 儿童 注意 力 缺 陷 多 动 症 
的 可 穿戴 式 辅助 诊断 评估 系统 ， 该 系统 能 够 感知 儿童 的 敏捷 性 和 冲动 性 ， 预 测 准确 率 、 灵 
敏 性 和 特异 性 均 达 到 0.9 以 上 (Jiang etal., 2020)。 可 以 看 出 ， 研 究 者 们 致力 于 采用 更 加 高 效 、 
无 侵扰 的 数据 采集 方式 ， 实 现 生态 化 的 、 可 融入 应 用 场景 的 心理 健康 测评 并 且 已 经 取得 了 


定 进 展 。 


数据 来 源 


社交 媒体 


包子 游戏 


可 穿戴 设备 


数据 获取 方式 


> 


直接 爬 取 公开 的 社交 媒体 平台 


在 社交 媒体 上 发 布 相关 写作 任务 ， 
招募 被 试 完成 并 获取 数据 


招募 被 试 提供 数据 


从 商业 游戏 后 台 直 接 导出 数据 


基于 特定 研究 问题 开发 或 改编 游 
戏 ， 招 募 被 试 完成 并 获取 数据 


招募 被 试 佩戴 可 穿戴 设备 ， 在 实 
验 室 中 完成 相关 任务 ， 获 取 数 据 


招募 被 试 在 日 常生 活 中 佩戴 便携 
式 可 穿戴 设备 ， 采 集 日 常数 据 


文本 、 


表 1 智能 


mi 网 
S 
p= 

= 

in 

Hy 


数据 类 型 


9 像 、 行 为 (如 点 赞 、 浏 览 ) 及 元 
据 (如 性 别 、 年 龄 、 位 置 ) 竺 


游戏 


通话 、 短 信 、 


Cy 


音频 及 视 


频 等 


的 行为 、 发 言 内 容 、 与 其 他 玩家 


的 互动 等 


眼 动 、 心 率 、 皮 肤 温 度 等 生理 数 
据 以 及 精细 运动 数据 


听 音 乐 、 拍 照 、 位 置 移动 、 
蓝牙 连接 、 应 用 软件 的 使 用 、 


化 心理 健康 测评 的 四 类 数据 的 比较 


数据 量 


有 限 


有 限 


有 限 


有 限 


数据 与 心理 健康 研 
究 的 相关 性 


不 直接 相关 


高 相关 性 


不 直接 相关 


不 直接 相关 


高 相关 性 


高 相关 性 


不 直接 相关 


数据 在 心理 健康 问题 预测 中 的 
应 用 情况 


有 一 定 的 应 用 ， 如 预测 焦虑 、 
抑郁 等 ， 预 测 准确 性 较 低 


有 一 定 的 应 用 ， 如 预测 焦虑 、 
抑郁 、 自 杀 倾向 等 ， 预 测 准确 


性 较 高 


直接 应 用 非常 少 ， 如 预测 社交 
焦虑 等 ， 但 有 一 些 对 心理 健康 
相关 的 心理 特质 的 预测 ， 预 测 
准确 性 较 高 


应 用 广泛 ， 如 预测 焦虑 、 抑 郁 、 
创伤 后 应 激 障 碍 、 注 意 缺 陷 等 ， 
预测 准确 性 高 


3 智能 化 心理 健康 测评 存在 的 问题 及 未 来 研究 方向 


智能 化 心理 健康 测评 是 一 个 新 兴 的 交叉 研究 领域 ， 目 前 正 处 于 起 步 和 探索 的 阶段 。 访 
领域 的 相关 研究 多 数 由 人 工 智能 及 计算 机 领域 的 专家 主导 开展 ， 研 究 往往 基于 公开 的 大 规 
模 在 线 日 志 数 据 进行 挖掘 ， 从 中 捕 提 与 心理 健康 问题 相关 的 特征 及 模式 并 实现 预测 (Chen & 
Wojcik, 2016; Kern et al., 2016)。 这 类 研究 通常 缺乏 特定 的 研究 假设 ， 目 标 是 实现 更 高 的 模 
型 预测 准确 率 ， 经 常 采 用 数据 驱动 的 研究 方法 来 建 模 ， 这 就 导致 预测 模型 成 为 一 个 “ 黑 匣 
子 ”， 难 以 为 外 部 行为 特征 与 心理 健康 的 关系 提供 清晰 和 明确 的 解释 (Voosen, 2017)。 此 外 ， 
己 有 研究 仅 能 对 个 体 是 否 存在 某 种 心理 健康 问题 做 二 分 判断 ， 无 法 提供 细 化 的 评估 结果 和 
详细 的 诊断 信息 ， 难 以 为 临床 诊断 和 治疗 提供 参考 。 因 此 ， 智 能 化 心理 健康 测评 的 研究 需 
要 强调 心理 学 领域 的 知识 和 经 验 的 深度 介入 ， 进 一 步 提高 测评 的 针对 性 、 可 解释 性 和 精 
化 水 平 ， 加 强 对 测评 工具 的 信 效 度 检验 ， 这 对 于 智能 化 心理 健康 测评 工具 的 进一步 发 展 和 
必用 至 关 重 要 。 
得 益 于 计算 机 技术 的 发 展 ， 越 来 越 多 的 机 器 学 习 及 深度 学 习 算法 被 封装 为 程序 包 ， 便 
于 心理 学 研究 者 直接 调用 并 独立 开展 心理 健康 测评 的 研究 (Chen & Wojcik, 2016; Kosinski et 
o al, 2016)。 然 而 ， 机 器 学 习 模型 的 表现 受到 诸多 环境 因素 的 影响 ， 在 实际 应 用 中 需要 研究 
N 者 对 模型 参数 进行 精细 调整 甚至 针对 具体 任务 开发 新 的 算法 模型 。 因 此 ， 智 能 化 心理 健康 
N 测评 系统 的 搭建 需要 机 器 行为 (Machine behavion) 领 域 的 知识 及 经 验 的 参与 ， 关 注 并 探究 算 
= 法 在 不 同 条 件 下 的 表现 (Rahwan et al., 2019)， 尽 管 这 并 非 心理 健康 测评 直接 关注 的 问题， 
但 能 够 帮助 研究 者 更 好 地 理解 和 应 用 人 工 智能 技术 ， 规 避 预 测 偏差 从 而 提升 测评 的 有 效 性 。 
= 智能 化 心理 健康 测评 需要 计算 机 领域 与 心理 学 领域 的 深度 融合 。 一 方面 ， 强 调 心理 学 
T 领域 的 知识 经 验 以 提高 测评 的 针对 性 、 可 解释 性 和 精细 化 水 平 ， 加 强 对 新 型 测评 工具 的 信 
效 度 检验 ， 另 一 方面 ， 在 保证 测评 的 有 效 性 和 可 靠 性 的 基础 上， 采用 计算 机 领域 的 新 方法 
和 新 进展 ， 获 取 多 模 态 数据 进行 协同 分 析 和 建 模 ， 进 一 步 提升 预测 准确 率 。 最 后 ， 智 能 化 
心理 健康 测评 领域 的 研究 者 也 必须 面 对 隐 私 和 伦理 问题 。 下 面 就 前 述 主要 问题 及 未 来 发 展 


方 回 逐 一 进行 论述 。 


=A 


3.1 强调 测评 的 针对 性 和 精细 化 


为 实现 真正 高 效 精准 的 智能 化 心理 健康 测评 ， 研 究 者 需要 开展 更 具有 针对 性 和 精细 化 
的 研究 。 对 在 线 行为 数据 的 探索 性 分 析 提 供 了 有 具有 启发 意义 的 信息 ， 研 究 者 需要 在 此 基础 
上 定位 具体 的 研究 问题 ， 基 于 理论 来 设计 任务 以 获取 与 目标 问题 高 度 相 关 的 数据 。 例 如 ， 
fe LEGS A (2012; 2017) 基 于 个 体 的 语言 表达 来 识别 创伤 后 应 激 障碍 患者 ， 研 究 者 在 心理 健 
康 论坛 中 设置 与 创伤 后 应 激 障碍 相关 的 写作 任务 ， 获 取 被 试 的 自述 文本 。 相 比 于 从 社交 媒 


体 获 取 一 般 性 的 文本 ， 针 对 性 的 主题 写作 任务 能 够 更 好 地 激发 与 PTSD 相关 的 文本 特征 ， 
例如 ， 有 具有 多 种 创伤 后 应 激 障碍 的 患者 文本 中 包含 更 多 与 事件 (如 “火灾 ”) 以 及 时 间 ( 如 
“年 ”) 相 关 的 表达 ， 而 具有 单一 创伤 后 应 激 障碍 患者 的 文本 中 包含 更 多 与 证 状 (如 “ 慎 
梦 ”) 相 关 的 表达 ， 研 究 者 基于 文本 特征 构建 的 预测 模型 达到 了 80% 以 上 的 准确 率 。 

基于 可 穿戴 设备 开展 的 研究 大 多 基于 心理 学 的 实验 范式 进行 任务 设计 ， 因 而 研究 的 针 
对 性 通常 较 高 。 例 如 ， 陈 益 强 等 人 开发 的 儿童 ADHD 可 穿戴 式 辅助 诊断 评估 系统 基于 心理 
学 的 ADHD 实验 范式 ， 开 发 出 三 大 类 任务 : 1) 实 物 交 互 场景 ， 如 手指 戳 洞 任务 等 ，2) 屏 交 
互 场景 ， 如 多 目标 追踪 任务 等 ，3) 肢 体 交 互 场景 ， 如 小 鸟 喂 水 任务 等 。 任 务 履 盖 DSM-5 对 
ADHD 的 18 项 描述 (Jiang et al., 2020)， 提 取 的 指标 涵盖 ADHD 的 各 个 维度 。 再 如 ， 马 惠 敏 
等 人 (Pan et al., 2019) 通 过 眼 动 数据 预测 抑郁 及 焦虑 的 研究 中 采用 以 反应 时 为 核心 的 启动 、 
竞争 的 实验 范式 ， 该 研究 基于 明尼苏达 多 项 人 格 量 表 (MMPD 以 及 心理 学 语义 与 图 像 间 的 映 
射 关 系 构建 了 心理 图 像 库 ， 以 此 作为 心理 特征 提取 与 分 析 的 素材 。 该 研究 不 仅 能 够 提供 个 


ID 体 心理 健康 问题 的 预测 结果 ， 也 能 够 输出 被 试 转移 时 间 最 长 的 图 像 以 便 研究 者 进行 深入 控 
= 据 和 根 因 分 析 。 

= 研究 的 精细 化 包括 预测 过 程 的 精细 化 和 预测 结果 的 精细 化 。 预 测 过 程 的 精细 化 强调 有 
06 意义 的 特征 提取 。 目 前 研究 者 对 于 心理 健康 问题 的 行为 指标 已 经 有 了 较为 明确 的 认识 ， 但 
= 对 其 脑 特征 、 生 理 特征 及 文本 特征 等 还 不 够 了 解 ， 深 入 研究 心理 健康 问题 的 多 元 指标 将 扩 
= 展 研究 者 对 于 目标 构 念 的 情感 、 认 知 和 行为 表现 的 理解 (Kern ctal, 2016). HWER 
N 化 是 指 从 粗糙 的 二 分 诊断 逐渐 细 化 到 连续 、 分 型 诊断 。 以 抑郁 症 为 例 ， 多 数 研究 仅 能 区 分 
= 重度 抑郁 患者 和 正常 人 群 ， 为 了 能 够 识别 轻 度 抑郁 患者 并 避免 其 发 展 为 重度 抑郁 ， 研 究 者 


需要 对 症状 的 严重 程度 进行 精细 化 诊断 。 北 京师 范 大 学 的 邬 霞 等 人 采用 Stroop 任务 研究 抑 


= 郁 症 患者 脑 电 的 功能 连通 性 变化 ， 创 新 性 地 将 DTW 算法 进行 改进 并 引入 到 脑 网 络 的 构建 
O 中 ， 实 现 了 精准 刻画 线性 相关 与 非 线性 相关 同时 存在 的 脑 区 信号 ， 并 通过 层次 聚 类 成 功 分 
解 得 到 大 脑 在 执行 情绪 任务 的 多 尺度 脑 信 号 特征 (Guo et al., 2017)。 研 究 团队 结合 EEG 和 


PPG 两 种 生理 信号 ， 综 合 考虑 来 自 于 大 脑 和 外 围 生理 指标 中 的 信息 ， 建 立 了 能 够 精确 评价 
认 知 负荷 的 多 生理 指标 模型 (Yu et al., 2018)。 该 团队 还 提出 了 稀 玻 重 琶 模 块 化 的 高 斯 图 模型 
算法 ， 不 仅 能 够 更 准确 地 估计 功能 连接 网 络 结 构 ， 也 明显 改善 了 特征 提取 的 精度 ， 提 高 了 
计算 机 辅助 诊断 脑 疾病 的 性 能 (Zhu et al., 2020). 
智能 化 心理 健康 测评 不 仅 需要 研究 者 针对 特定 的 心理 健康 问题 ， 基 于 心理 学 理论 和 范 
式 来 设计 任务 ， 同 时 也 需要 充分 利用 数据 挖掘 技术 来 探索 潜在 的 模式 和 特征 ， 拓 宽 对 特定 
心理 健康 问题 的 理解 。 可 以 看 出 ， 智 能 化 心理 健康 测评 要 求 研究 者 探索 数据 驱动 与 理论 驱 
动 相 结 合 的 解决 方案 ， 这 与 von Davier 等 人 (2013) 提 出 的 计算 心理 测量 学 的 思想 不 谋 而 合 。 
计算 心理 测量 学 强调 基于 理论 采用 自 上 而 下 的 方式 来 设计 指标 ， 同 时 引入 机 器 学 习 方法 进 
行 自 下 而 上 的 数据 挖掘 (von Davier et al., 2013; 2019)， 这 一 框架 目前 主要 应 用 于 问题 解决 能 


oy 


力 评 估 (Polyak et al., 2017) 以 及 学 习 评 估 (von Davier et al., 2019) 等 任务 中 ， 在 心理 健康 测评 
中 应 用 较 少 。Cipresso 等 人 (2019) 尝 试 基于 计算 心理 测量 学 框架 检测 个 体 的 压力 状态 ， 访 看 
完 基 于 领域 知识 来 设 定 需要 获取 的 生理 指标 ， 采 用 Stroop 任务 和 算术 任务 作为 心理 压力 源 ， 
收集 被 试 在 静 息 状态 和 压力 状态 下 的 血 容量 脉冲 、 胸 腔 呼吸 和 皮肤 电导 率 等 生理 数据 ， 通 
过 重复 方差 分 析 等 统计 方法 检验 指标 的 有 效 性 ， 最 后 采用 机 器 学 习 模 型 进行 预测 (Cipresso 
et al., 2019)。 该 研究 显示 出 将 计算 心理 测量 学 应 用 于 心理 健康 测评 中 的 潜力 。 尽 管 目前 的 
智能 化 心理 健康 测评 的 相关 研究 中 很 少 涉及 对 计算 心理 测量 学 的 直接 探讨 ， 但 一 些 具有 人 针 


对 性 和 精细 化 的 研究 中 已 经 体现 出 了 计算 心理 测量 学 的 思想 。 随 着 智能 化 心理 健康 测评 的 
发 展 ， 计 算 心 理 测量 学 应 当 得 到 更 多 的 关注 和 应 用 。 
3.2 引入 测量 学 的 证 据 中 心 设计 

为 实现 测评 的 针对 性 和 精细 化 ， 研 究 者 需要 有 针对 性 地 创设 任务 和 情境 来 激发 被 试 的 


相关 行为 指标 ， 获 取 更 加 真实 、 丰 富 的 行为 数据 。 近 年 来 ， 研 究 者 尝试 采用 虚拟 仿真 以 及 
人 机 交互 技术 来 呈现 测验 任务 ， 这 种 测评 形式 被 称 为 “基于 仿真 的 测评 ”(Simulation-Based 
Assessment)(Mislevy, 2013)。 与 高 度 结构 化 的 传统 测验 不 同 ， 基 于 仿真 的 测评 为 被 试 提供 了 
自由 探索 的 环境 ， 收 集 被 试 在 面 对 刺 激 和 人 解决 任务 时 的 自发 反应 ， 在 降低 被 试 的 测试 焦虑 
的 同时 获取 更 加 真实 的 行为 指标 。 被 试 在 虚拟 环境 中 产生 的 大 量 过 程 性 数据 也 为 动态 、 持 
续 的 测评 提供 了 可 能 (Shute et al., 2016). 

然而 ， 基 于 仿真 的 测评 在 提升 测评 真实 性 和 生态 性 的 同时 也 带 来 了 更 高 的 测量 误差 。 
过 程 性 数据 中 混杂 着 大 量 与 测评 目标 无 关 的 信息 ， 如 果 采 用 无 规则 的 数据 挖掘 则 难以 保证 
测评 的 有 效 性 ， 指 标 提 取 与 测评 结果 之 间 的 关系 也 缺乏 可 解释 性 。 为 了 在 新 型 测评 环境 中 
进行 有 效 测评 ，Mislevy 等 人 (2003) 提 出 证 据 中 心 设计 (Evidence-Centered Design, ECD)。 证 
据 中 心 设计 是 一 种 围绕 证 据 的 评估 设计 和 评估 实施 方法 ， 通 过 任务 设计 来 收集 与 心理 构 念 
相关 的 证 据 。 证 据 中 心 设计 包括 学 生 模 型 、 证 据 模 型 与 任务 模型 三 部 分 。 学 生 模型 回答 
“ 测 什么 ”的 问题 ， 即 依据 相关 理论 定义 目标 特质 的 结构 。 学 生 模 型 通常 是 多 维 的 ， 包 括 
能 力 、 特 质 或 态度 等 多 个 方面 (Shute et al., 2011)。 证 据 模型 回答 “如 何 测 ” 的 问题 ， 确 定 
反映 目标 特质 的 指标 及 计 分 规则 ， 例 如 ， 是 否 解决 了 问题 、 是 否 使 用 了 特定 的 工具 等 。 研 
究 者 需要 基于 相关 研究 基础 及 知识 经 验 ， 将 证 据 模型 与 学 生 模 型 进行 链接 。 任 务 模型 解决 
“用 什么 测 ” 的 问题 ， 在 学 生 模 型 与 证 据 模型 的 基础 上 设计 情境 、 任 务 形式 以 及 被 试 的 反 
应 方式 。 任 务 可 以 采用 多 项 选择 题 等 简单 的 形式 ， 也 可 以 采取 更 复杂 、 交 互 性 更 强 的 形式 。 

证 据 中 心 设计 适用 于 游戏 测评 等 基于 虚拟 环境 或 人 机 交互 的 测评 任务 开发 (Shute et al., 
2011)， 并 且 已 经 得 到 广泛 应 用 (Lee & Recker, 2017; Johannes Dechant et al., 2021; Mislevy & 
Haertel, 2006; Snow et al., 2019)。 智 能 化 心理 健康 测评 的 任务 设计 也 应 基于 证 据 中 心 设计 ， 
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在 学 生 模型 中 细 化 特定 心理 健康 问题 的 不 同 维度 和 分 型 ， 提 高 测评 系统 的 精细 化 水 平 ; 在 
任务 模型 中 基于 特定 心理 健康 问题 的 典型 行为 表现 来 确定 指标 和 计 分 规则 ， 提 高 特征 提取 
的 有 效 性 和 可 解释 性 ， 在 证 据 模型 中 参考 心理 学 范式 设置 测评 情境 和 任务 ， 同 时 结合 虚拟 
仿真 的 测评 形式 ， 更 好 地 激发 被 试 的 相关 行为 指标 。 由 此 可 见 ， 证 据 中 心 设计 的 应 用 将 进 
一 步 提升 智能 化 心理 健康 测评 的 针对 性 和 精细 化 程度 。 


3. 3 注重 测评 结果 的 信 效 度 检 验 


智能 化 心理 健康 测评 作为 一 种 新 的 心理 测量 方法 ， 需 要 通过 信 效 度 检验 以 保证 测评 结 
果 的 有 效 性 和 科学 性 。 信 效 度 检验 回答 了 预测 模型 是 否 测 量 了 目标 特质 、 测 量 结果 是 否 稳 
定 等 一 系列 重要 问题 。 只 有 进行 了 充分 的 信 效 度 检验 ， 智 能 化 心理 健康 测评 工具 才能 够 得 
到 大 规模 的 应 用 ， 尤 其 是 在 高 利害 场景 中 (如 ， 选 拔 、 考 试 等 ) 应 用 以 避免 较 大 的 争议 。 
> 目前 ， 智 能 化 心理 健康 测评 主要 采用 计算 机 领域 的 评估 指标 ， 如 准确 率 、 召 回 率 等 
£ 考虑 信 效 度 检 验 的 相关 研究 非常 少见 (Tay et al., 2020). Park 等 人 (2015) 在 基于 社交 媒体 数据 
预测 大 五 人 格 的 研究 中 检验 了 重 测 信和 度 ， 研 究 者 以 6 个 月 为 单位 划分 数据 ， 各 维度 预测 结 
果 在 相 邻 两 个 时 间 单 位 间 的 相关 达到 0.70 以 上 。 由 于 个 体 的 在 线 行为 容易 受到 网 络 环境 中 
的 诸多 因素 的 影响 ， 因 此 检验 工具 的 跨 时 间 稳 定性 十 分 必要 ， 在 未 来 的 相关 研究 中 应 尽 可 
能 包含 这 方面 的 检验 结果 。 
智能 化 心理 健康 测评 中 ， 机 器 学 习 模 型 充当 了 评分 员 的 角色 ， 因 此 ， 模 型 选择 和 构建 
的 恰当 性 是 影响 预测 结果 的 重要 因素 。Sajjadiani 等 人 (2019) 根 据 传 统 的 评分 者 一 致 性 信 度 
(inter-rater reliability) 提 出 了 算法 一 致 性 信 度 (inter-algorithm reliability)， 检 验 不 同 模型 在 同 
一 批 数据 上 的 评分 一 致 性 。 由 于 每 种 模型 都 存在 优势 和 浆 端 ， 研 究 者 应 结合 具体 任务 进行 
模型 选择 并 对 适当 的 备 选 模型 进行 检验 和 比较 。 
机 器 学 习 模型 容易 对 单 次 获取 的 训练 集 数据 过 分 拟 合 ， 因 此 智能 化 心理 健康 测评 需 
考虑 预测 模型 的 泛 化 性 能 。 研 究 者 通常 采用 交叉 验证 方法 对 模型 的 泛 化 能 力 和 稳定 性 进行 
估计 (Kosinski et al., 2016)。 交 叉 验 证 方法 将 样本 数据 随机 分 为 个 大 小 相似 的 组 ， 每 次 以 
其 中 一 组 用 作 测 试 集 ， 其 它 K-1 组 作为 训练 集 ， 以 K 次 测试 结果 的 平均 值 作为 模型 准确 率 
的 估计 。 此 外 ， 研 究 者 也 需要 验证 工具 在 不 同情 境 中 的 泛 化 能 力 和 普 适 性 。 不 同 的 社交 媒 
体 平台 有 具有 不 同 的 特点 ， 例 如 ， 推 特 主要 服务 于 大 众 信息 的 传播 而 脸 书 主要 服务 于 熟人 之 
间 的 交流 ， 这 些 特点 均 对 个 体 特质 的 表现 产生 影响 (Saef et al., 2018)， 研 究 者 应 采用 其 它 样 
本 数据 或 研究 设计 来 验证 原 有 发 现 (Kern etal., 2016)。 例 如 ， 中 国 科学 院 计 算 所 的 朱 廷 动 等 
人 检验 了 抑郁 症 患 者 与 正常 人 群 的 语音 差异 的 跨 情境 稳定 性 ， 研 究 表明 抑郁 者 和 正常 人 群 
之 间 的 语音 差异 在 不 同情 境 下 普遍 存在 ， 并 且 识 别 出 差 异 最 大 的 12 个 重要 特征 (Wang et.al., 
2019)。 因 此 ， 智 能 化 心理 健康 测评 应 重点 捕捉 具有 器 情境 稳定 性 的 普遍 特征 ， 同 时 考虑 虚 
拟 环 境 对 个 体 行 为 表现 的 影响 以 提升 测评 的 有 效 性 和 可 解释 性 。 
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目前 ， 智 能 化 心理 健康 测评 只 能 做 到 粗 第 ， 无 法 直接 用 于 诊断 ， 但 加 强 测评 的 精细 化 
和 针对 性 将 有 助 于 提高 评估 的 准确 率 ， 同 时 提供 更 加 丰富 的 信息 帮助 医生 进行 进一步 的 临 
床 评估 和 诊断 。 
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3.4 融合 多 模 态 数据 进行 协同 分 析 


随 着 大 数据 时 代 的 到 来 ， 数 据 的 共享 为 多 模 态 数据 的 整合 分 析 提 供 了 可 能 。 个 体 的 心 
理 健康 状况 通过 语言 、 肢 体 动作 、 面 部 表情 、 生 理 反应 等 多 种 途径 表现 ， 不 同 的 数据 来 源 
和 


标 有 其 独特 优势 ， 综 合 分 析 各 类 数据 将 实现 更 加 全 面 和 稳健 的 评估 。 计 算 机 领域 的 多 
模 态 数据 分 析 方 法 为 智能 化 心理 健康 测评 带 来 了 革新 ， 研 究 者 开始 尝试 更 多 元 的 数据 采集 
形式 ， 获 取 多 模 态 的 数据 进行 融合 建 模 ， 从 而 发 挥 信息 的 互补 作用 。 例 如 ，Williamson 等 
人 (2016) 的 研究 中 融合 了 和 生理、 语音、 面孔 以 及 语义 四 类 特征 构建 抑郁 症 的 预测 模型 ， 斯 
昌 福 大 学 的 李 飞 飞 等 人 (2018) 利 用 面部 表情 以 及 语音 数据 构建 抑郁 症 的 预测 模型 ， 华 中 科 
技 大 学 的 陈 敏 等 人 采集 多 场景 (工作 、 学 习 、 娱 乐 ) 下 的 多 模 态 数据 ( 脑 电 、 视 频 、 眼 动 )， 构 
建 多 动 症 儿 童 的 注意 力 评估 模型 (Chen et al., 2019)。 上 述 研究 结果 显示 ， 包 含 多 模 态 数据 的 
模型 往往 实现 了 最 优 的 预测 效果 。 
游戏 能 够 同时 记录 玩家 的 行为 、 认 知 、 运 动 、 社 交 以 及 情感 等 多 种 心理 健康 


， 基 于 游戏 的 测评 有 望 成 为 多 模 态 数据 的 重要 应 用 场景 。 已 有 研究 者 通过 分 析 游 戏 中 
的 发 言 内 容 来 预测 玩家 的 心理 健康 (Mandryk & Birk, 2019)， 通 过 游戏 手柄 中 的 传感器 获取 
生理 数据 来 分 析 玩 家 的 情绪 和 认 知 状态 (Mandryk et al., 2013)， 通 过 玩家 在 游戏 中 敲 击 按钮 
的 压力 大 小 来 推断 其 心理 健康 (Vogel, 2018) 等 。 不 同类 别 的 数据 和 指标 反映 了 心理 健康 的 不 
© 同 侧面 ， 全 面 收集 各 类 生理 、 心 理 及 行为 数据 进行 协同 建 模 和 综合 判断 ， 这 对 于 心理 健康 

问题 的 精准 筛 查 至 关 重 要 。 


3.5 对 隐私 及 伦理 等 问题 的 考虑 


目前 ， 国 内 外 关于 智能 化 心理 健康 测评 的 研究 尚 处 于 初步 阶段 ， 随 着 人 工 智 能 与 大 数 
据 技术 的 发 展 ， 相 关 研 究 的 伦理 问题 将 逐步 受到 重视 。 基 于 在 线 行为 数据 的 研究 中 ， 被 试 
往往 无 法 得 知 自 己 的 信息 已 被 用 于 研究 ， 未 来 研究 中 的 数据 获取 和 使 用 应 尽 可 能 使 被 试 知 
情 。 此 外 ， 智 能 化 心理 健康 测评 必须 考虑 被 试 的 隐私 保护 ， 规 避 隐 私信 息 泄露 的 风险 。 传 
统 测评 中 研究 者 能 够 通过 删除 被 试 的 身份 信息 来 保护 被 试 陷 私 ， 然 而 在 线 行为 数据 中 包含 
的 个 人 信息 难以 完全 剔除 Kern et al., 2016)。 随 着 研究 获取 的 数据 来 源 的 扩展 以 及 信息 之 间 
的 融合 ， 个 体 身份 的 识别 将 更 加 容易 (Berman, 2013)。 研 究 者 应 站 在 被 试 的 角度 上 考虑 哪些 
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数据 可 以 获取 和 分 析 ， 仅 采集 研究 必需 的 信息 (Kern et al., 2016)， 例 如 ，Markus 等 人 (2020) 
通过 个 体 的 语音 数据 来 评估 心理 状态 的 研究 中 ， 研 究 者 仅 获取 语音 数据 的 参数 而 无 法 得 到 
原始 的 语音 内 容 ， 这 样 的 数据 采集 及 处 理 方式 值得 借鉴 。 


心理 健康 问题 的 智能 化 测评 是 人 工 智 能 领域 与 心理 学 及 医学 领域 的 交叉 问题 ， 跨 学 科 
的 深度 交流 和 共同 努力 至 关 重 要 (Kern etal., 2016)。 领 域 间 的 深度 融合 和 思维 碰撞 能 够 激发 
出 更 多 的 研究 成 果 ， 惠 及 人 类 的 心理 健康 和 幸福 生活 。 本 文 所 介绍 的 研究 绝 大 多 数 是 智能 
化 心理 健康 测评 领域 的 初步 探索 ， 相 关 研 究 成 果 为 未 来 研究 提供 了 基线 标准 ， 研 究 者 构建 
的 数据 库 也 为 未 来 研究 提供 了 进一步 探索 的 宝贵 资源 。 

近年 来 ， 智 能 化 心理 健康 测评 的 研究 问题 从 最 常见 的 抑郁 症 、 焦 虑 症 ， 扩 展 到 注意 力 
缺陷 多 动 症 、 创 伤 性 应 激 障碍 、 自 闭 症 等 各 类 心理 健康 问题 。 如 今 ，AI 不 仅仅 能 够 增强 人 
类 的 能 力 ， 使 人 们 看 到 更 多 、 听 到 更 多 ， 帮 助人 类 思考 和 计算 ， 同 时 ，AI 也 逐渐 变 得 更 加 
有 温度 ， 更 加 关注 人 类 的 情绪 与 情感 、 人 类 的 心理 健康 及 主观 幸福 感 等 。 相 信 未 来 的 心理 
测评 在 变 得 更 加 智能 化 的 同时 也 必然 变 得 更 加 人 性 化 。 
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Abstract: The rapid development and application of artificial intelligence technology has 
promoted the intelligentization of mental health assessment. Being intelligent could solve the 
issues of traditional mental health assessment methods and decrease the rate of misdiagnosis and 
improve diagnosis efficiency, which is critical to the general investigation and early warning of 
mental health problems. Currently, an intelligent mental health assessment is in the initial stage of 
development. Related studies have explored the field mainly driven by data, in which researchers 
use online behavioral data and data from portable devices, aiming to achieve a higher prediction 
accuracy. However, the interpretability of assessment results is not yet ideal. In view of these 
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problems, more emphasis should be laid on the knowledge and experience in the field of 
psychology, by which the research could be more pertinent, refined, reliable, and valid. These are 
essential directions for the further development and application of intelligent mental health 
assessment. 
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